常用生物信息学方法及其应用概述
生物信息学方法
聚类:有自下而上(如层次聚类)和自上而下(如 K-means)两种主要方法,还有==主成分分析(PCA)、自组织映射(SOM)==等,以及双向聚类技术,基因 shaving 技术也被提出以解决双向聚类在发现细节方面的不足。
人工神经网络(ANN):模拟正常大脑过程和神经生理学习,是强大的计算工具,但在结构和参数选择等方面存在主观性,需注意避免过度训练,可通过 bootstrap 抽样等方法解决相关问题,在生物医学领域尤其是癌症研究中的应用显著增加。
支持向量机(SVM):是统计学习理论的重要创新,属于核机器类学习算法,能将数据投影到高维空间实现线性分离,具有产生唯一解等诸多优势,在基因组学和蛋白质组学中很有前景。
Boosting:是组合多个弱分类器产生强分类器的通用方法,通过对训练数据的重加权版本依次应用分类算法,再对分类器序列进行加权多数投票,能显著提高性能。
Bagging:即 Bootstrap Aggregation,从数据集抽取 bootstrap 样本训练分类器,通过多数投票预测最终类别,能在过拟合和过平滑之间找到中间道路,随机森林是结合 bagging 的很有前景的工具。
模糊逻辑:处理模糊和模糊性问题,与概率不同,涉及部分集合成员资格等概念,使用语言变量,典型的模糊推理系统包括模糊化等过程,在许多日常消费品和医学领域有应用。
应用
基因组学在癌症早期检测和分类中的应用:基因表达分析技术为癌症研究提供工具,多种计算方法如层次聚类、SOM、ANN、SVM、模糊逻辑等被用于微阵列数据分析、肿瘤分类等。
蛋白质组学分析、生物成像和模式识别:蛋白质组学分析蛋白质组,与基因组学信息互补,存在诸多研究难点,生物信息学工具对分析相关数据至关重要,多种方法和工具在蛋白质组模式定义、肿瘤分类等方面有应用。
癌症早期检测、风险识别等的多因素分析:癌症是复杂的多因素疾病,需综合考虑多种因素,多种多元分析工具如 ANN、SVM 等在相关方面有用,且多因素计算方法比单变量评估有改进。
药物发现:制药公司利用生物信息学工具从组学和高通量技术产生的数据中发掘药物,出现了化学基因组学等新领域,计算辅助药物设计等有新发展。
在该文档中, #bootstrap抽样 (即有放回的随机抽样)被提及为一种解决人工神经网络(ANN)设计与训练中存在问题的方法。具体来说,通过 bootstrap 抽样生成大量独立的神经网络,对这些神经网络的结果分布进行参数或非参数统计分析,能够得到预测区间,从而在一定程度上应对 ANN 在结构和参数选择上的主观性、缺乏理论上推荐的训练数据集大小以及易陷入局部最小值等问题。
此外,bootstrap 抽样也是 bagging(Bootstrap Aggregation)技术的基础。在 bagging 中,从数据集抽取多个 bootstrap 样本(每个样本大小与原数据集相同),每个样本用于训练一个分类器,最终通过多数投票来预测类别,以此在过拟合和过平滑之间找到平衡